查看原文
其他

东西精品沙龙 | 喜马拉雅卢恒:提供AI创作工具,以AIGC的方式进行降本增效是一种趋势@「AIGC与生产力」系列第一期

东西文娱 东西文娱 2023-10-23


2022年下半年以来,NLP技术与深度学习模型的完善、多个大模型开源并探索商业化可能,正在加速AIGC与产业结合,更大规模地落地业务与应用场景。这有望推动AIGC从辅助内容创作,向覆盖文本、绘画、音频、视频、游戏、创意营销、数字人、虚拟直播等多个行业的生产力工具转变,并产生价值增量。

在这一背景下,日前东西文娱&东西游戏联合东方财富证券研究所,举行“AIGC与生产力”系列会议。第一期将在上海,主要探讨AIGC的应用场景与产业化落地方向。下为现场纪要摘要。

(全文点击下图即可阅读)

喜马拉雅 卢恒





使用AIGC的目标:
降低成本、播讲时效性内容、创作者工具



我们用AIGC主要有几个目标。

第一个,因为我们如果要真人去朗读,真人去接单的这种模式的话,其实它整个生产成本还是比较高的。如果我们能用 AIGC 的方式去生产大量的有声书比如说几千本甚至几万本这种有声书的内容,那其实是能为公司带来极大的一个成本降低

第二个就是针对一些非常具有时效性的内容,比如说一些新闻的、热点的内容,还有最近的一些世界杯的内容。那我们如果用AIGC去生产,可能几分钟之内,在有文稿的基础上,我们就能听到 AI 播讲的有声的内容。那如果是之前用真人接单的方式,我们可能需要等几个小时才能听到配音的内容。

那第三块其实是我们也希望把 AI 技术落地到创作者工具上,这样的话能够辅助创作者进行生产,提升他们的生产效率,降低他们的生产门槛,从而能够帮助繁荣我们的创作生态。

在目前的阶段,我们对于长音频的语音合成,其实重点在做一些多情感以及多播的语音合成。在这个基础上,我们也把AIGC技术应用到了很多的场景,比如说内容自动生产,比如说电子书的听看一体,以及包括一些 IP 的运营,比如说单田芳声音的一些非物质遗产的传承,或者是一些智能硬件上,包括小雅音箱。其实小雅音箱上面的一些语音交互,比如说语音合成、语音识别、语音唤醒以及降噪的处理,也都是我们在研究的。






AIGC语音合成的技术问题:
文本处理、篇章级文本情感分析

目前喜马拉雅语音合成其实需要解决的问题包括一些前端的问题、语音生成的问题以及工程化落地的问题。

来了一段文本之后,我们怎么能把这段文本读得比较正确?那其实涉及到很多文本层面处理的问题。比如说有一些文本的多音字怎么发音,多音字的消歧,或者是缩略词或者数字,怎么把它读成汉语符号。而且包括一些语气词的处理,甚至篇章级别的角色情感节奏的一些处理。

所以整个我们语音合成层次架构,包括篇章级的信息的处理、段落级的情感以及旁白、对白以及旁白极性的分析,然后句子级我们会做一些分词、韵律、多音字、儿化音、轻声的处理等等。


我们主要是在做长音频长内容的语音合成。比如说输入了一整本有声书之后,我们会做很多语义方面的一些LU方面的一些操作。我们会对整个有声书的文本进行一个理解,比如说来了一本《射雕英雄传》,会对整个文本去抽取它的主要的角色的名字。比如说我们可以分析出主要角色是郭靖、黄蓉或者是欧阳锋等等。

同时我们会对整个篇章的文本进行分析,每句话它是一个旁白还是一个对白。如果它是一个对白的话,我会进一步分析这个对白的情感表现是什么样子。然后我会去预测这个对白是哪个角色说出来的。所以这样的话我们可以自动地做成一个多情感多播的有声书合成。




AIGC项目:单田芳“重现江湖”、创作者工具、自媒体定制、音视频结合

单田芳“重现江湖”

单老先生他其实在2018年已经仙逝了,单式评书是中国非物质文化遗产。我们去复刻了单老先生评书的风格,然后用单老先生的评书风格去念一些我们现在的热门的内容,比如说《明朝这些事》。

我们生成的单老先生的专辑,在站上的播放量以及用户量其实都是非常大的。用单老先生的音色去读的内容,我们目前已经复刻了大概200本,播放量也超过了亿次。包括一些媒体,比如新华网也报道了我们的这个工作。

第二个例子是我们用单老先生那个音色去念英文,其实之前的训练语料是完全没有任何英文的内容的。所以我们也用了一些迁移学习的方式,让单老能够念英文,然后他念英文的同时也能保持他的评书风格。


这个工作其实我们也写了一篇学术论文,然后投稿到那个ICASSP就是语音界的一个顶会,今年5月份在新加坡也发表了。除此之外我们也做了很多包括音色转换,包括用我们的AIGC语音合成技术去做广告的一些工作。



创作者工具“喜韵音坊”

我们还把刚刚提到的情感识别、角色识别、人设识别的能力落地到一个工具上。这个工具现在也是开源的,大家都可以用。


这个工具是为了解决几个问题:专业音频录制门槛高、一般人很难发音像主播一般标准、配音配乐等素材稀缺、人声后处理困难、成品音频导出上传路径复杂。

目前整个工具已经开放给所有喜马拉雅的创作者去使用。我们一直在持续迭代,整个反馈还是非常好的,我们也做了很多“我是AI制作人”之类的活动,活动反响还是非常不错的,产生出来的专辑播放量也很高。


AIGC自媒体音色定制

接下来我再简单介绍一下我们自媒体定制的工作。通过AIGC能力,我们能够引入很多自媒体的内容入驻到我们的平台上。(喜马拉雅AI开放平台:https://open.ximalaya.com/solve/ai-produce)

很多自媒体已经入驻到我们喜马拉雅的平台上,他们把文本更新到我们这边,然后我们使用AIGC的技术,能够非常有时效性地给用户提供自媒体的有声内容。

之前如果我们用真人配音的话,可能自媒体内容的更新周期是一周更新一条或者一到两条。那现在我们用全自动的方法,可能每天都能够更新三四条。


举个例子,比如说清友荐读,是我们国家著名经济学家管清友在我们喜马拉雅入驻的一个栏目。我们复刻了管清友的声音来(播报),现在我们音色复刻的能力,已经基本上能够达到听不出来到底是真人说的还是AI生成的一个效果。有些用户评价说,AI主播已经超乎想象的好。



尝试音视频结合内容

我们也在尝试一些音视频结合的方式,通过自动的文本生成图片的方法,给之前纯音频的内容配上一些图片的内容。我们最近在做一些绘本风格的图片生成的工作,对图片生成模型进行一些fine tune。

Hello!
我们在为更加闭环、更加高效的服务模式做准备
欢迎加入限定白名单
与我们一起探索
















您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存